هفته اخیر ایمیلی دریافت کردم از یک دانشجوی دکترای آموزش که سوال کرده بود با اینکه درکلاسهای آمار و SPSS شرکت کرده است ولی هرچه گشته هیچ جا در SPSS پیدا نکرده که آزمون نرمال بودن توزیع متغیر از روش Kolmograph را در آن پیداکند. مطلب مصور زیر براحتی این روش را بهمراه آنالیز آماری آن توضیح می دهد:
دو تصویر زیر بترتیب Box-Plot مرتبط با دو نمونه با توزیع نرمال و غیر نرمال است:


حالا مستقیم به SPSS می رویم:
در نرم افزار SPSS ورژن 17 ( در سایر ورژن های قبلی نیز با کمی تفاوت به همین شکل است ) ، ابتدا مطابق زیر به منوی Analyse و سپس به Descriptive Statistics و سپس به Explore می رویم و مراحل زیر را طی می کنیم که Command ( دستور ) Examine را برای ما اجرا می کند:

سپس در تصویر زیر، متغیر مورد نظر را ( دراینجا a ) به جعبه Dependent List منتقل می کنیم.
قسمت Display را به همان صورت گزینه از پیش انتخاب شده Both رها می کنیم و بر روی دکمه Plot کلیک می کنیم.
این قسمت گزینه های مختلفی دارد که می توانید استفاده کنید ولی مهمترین چیزی که دراینجا منظورم است این است که حتما گزینه Normality Plots witht tests را تیک بزنید:

نهایتا دکمه Continue را کلیک کرده و به صفحه قبلی که باز گشتید روی دکمه Ok کلیک می کنید.
جدول زیر ، نمایش آنالیز توزیع نرمال به دو روش Kolmograph-Smirnov , و Shapiro-Wilk است که مشابه هم هستند ولی کاربرد متفاوتی در حجم نمونه های متفاوت دارند. ( تست کولموگراف معمولا برای داده های بالای 2000 عدد مناسب تر از تست شاپیرو است و البته هردو تست را می توان برای داده های کمتر از 2000 عدد استفاده کرد که بطور روتین از تست کولموگراف استفاده می کنیم و نتایج این دو تست معمولا تفاوتی در نتیجه نهایی نخواهد داشت مگر دربعضی شرایط خاص که توضیحش در این مبحث نمی گنجد:

آنالیز آماری نتایج جدول تست کولموگراف در SPSS :
داستان از اینجا حکایت می کند که در اصل با انجام تست کولموگراف ما داریم یک هایپوتز خنثی را که به شکل زیر است تست می کنیم:
The distribution of the variable is Normal
حالا با توجه به جدول فوق، به عدد متناظر با Sig. نگاه می کنیم. اگر این عدد کوچکتر از P مورد نظر ( معمولا P=0.05 ) باشد دراین صورت هایپوتز بالا را به نفع عدم توزیع نرمال متغیر مورد مطالعه رجکت می کنیم.
ولی اگر مساوی یا بزرگتر از عدد P باشد ( همانطور که در بالا در تست کولموگراف برابر با 0.2 و در تست شاپیرو برابر با 0.691 است ) ، در این صورت هایپوتز خنثی بالا را قادر به رجکت کردن نیستیم ( به نفع نرمال بودن توزیع متغیر مورد نظر ) .
بنابراین درصورتی که نتیجه جدول فوق را درمطالعه خود داشته باشید به این معنی است که متغیر مورد نظر از توزیع نرمال برخوردار است.
گام اول:
ابتدا چولگی و کشیدگی داده هایتان را آزمون کنید. این کار را می توان از مسیر زیر در SPSS انجام داد:
Analyze> Descriptive Statistics> Descriptives
در کادر محاوره ای که باز می شود متغیر هایی که می خواهید چولگی و کشیدگی آن را آزمون کنید را به کادر سفید انتقال دهید.
سپس روی کلید options کلیک کنید و در کادر محاوره ی آن گزینه های Skewness و kurtosis را فعال کنید .
چولگی برابر با گشتاور سوم نرمال شده است. چولگی در حقیقت معیاری از وجود یا عدم تقارن تابع توزیع می باشد. برای یک توزیع کاملاً متقارن چولگی صفر و برای یک توزیع نامتقارن با کشیدگی به سمت مقادیر بالاتر چولگی مثبت و برای توزیع نامتقارن با کشیدگی به سمت مقادیر کوچکتر مقدار چولگی منفی است. در شکل زیر چولگی مثبت و منفی را می بینید.
کشیدگی یا کورتزیس نشان دهنده قلهمندی یک توزیع است. مقدار کشیدگی را با گشتاور چهارم نرمال بر آورد کرده اند، به عبارت دیگر کشیدگی معیاری از تیزی منحنی در نقطه ماکزیمم است و مقدار کشیدگی برای توزیع نرمال برابر ۳ می باشد. کشیدگی مثبت یعنی قله ی توزیع مورد نظر از توزیع نرمال بالاتر و کشیدگی منفی نشانه ی پایین تر بودن قله از توزیع نرمال است.
در حالت کلی معمولا چنان چه چولگی و کشیدگی در بازه ی (2 ، 2-) نباشند داده ها از توزیع نرمال بسیار دور بوده و می بایست قبل از هر گونه آزمونی که برای انجامشان باید فرض نرمال بودن داده ها برقرار باشند؛ اصلاح گردند.( البته ممکن است بعضی از
آمار دادنان این بازه را کوچکتر یا بزرگتر در نظر بگیرند. )
مثال زیر را در نظر بگیرید.
از سری داده های آماده ی
SPSS فایل adl.sav را از مسیر زیر باز کنید:
Open> data>
در کادر open data در look in به آدرس زیر رفته و فایل adl.sav را انتخاب کنید:
C: > program files> SPSSlnc > SPSS> Samples
می خواهیم نرمال بودن داده های سن(age) و Hopital LOS(los) را چک کنیم: برای این کار از مسیر * کادر Descriptive را باز کنید و این دو متغیر را به کادر سفید انتقال دهید و در منوی optins دو گزینه Kurtosis و Skewness را فعال کنید. و در نهایت دکمه ی ok را بزنید. با این کار خروجی زیر را دریافت می کنید:
مقدار چولگی مشاهده شده برای متغیر سن 1.483 است این می تواند ما را به نرمال بودن توزیع این متغیر امیدوار کند یعنی از لحاظ کجی متغیر سن مانند نرمال بوده و توزیع آن متقارن است اما مقدار کشیدگی آن از 3 بیشتر است و این می رساند که قله ی این توزیع از نرمال بالا تر قرار می گیرد. لذا این متغیر با اینکه دارای توزیع متقارنی است اما نرمال نخواهد بود.
اما مقدار چولگی و کشیدگی برای متغیر los در بازه ی (2 , 2-) قرار داشته و می توان گفت که این متغیر می تواند نرمال باشد.
گام دوم:
پس از بررسی عادی یا نرمال بودن کشیدگی و یا چولگی توزیع داده هایتان، به سراغ آزمون شاپیرو ویلک بروید تا از نرمال بودن داده هایتان مطمئن گردید. برای این کار از مسیر زیر وارد کادر محاوره ی زیر شود.
Analyze > Descriptive Statistics> Explore
در مثال بالا همان دو متغیر سن age و los را مطابق شکل وارد لیست متغیر های وابسته کنید و سایر جاها را خالی بگذارید. سپس به منوی plots رفته و گزینه ی Normality plots with tests را تیک دار کنید.
با این عمل خروجی شما شامل جدولی است تحت عنوان Tests of Normality که به شما دو مقدار سطح معناداری را برای هر کدام از متغیر ها به طور مجزا می دهد. این مقادیر در تشخیص نرمالیتی داده ها بسیار تعیین کننده است.

معمولا چنانچه سطح معناداری در آزمون Shapiro-Wilk که در این جدول با sig. نمایش داده می شود بیشتر از 0.05 باشد می توان داده ها را با اطمینان بالایی نرمال فرض کرد. در غیر این صورت نمی توان گفت که داده ها توزیعشان نرمال است. با توجه به جدول فوق و مقادیر سطح معناداری برای متغیرهای age وlos می توان گفت که توزیع متغیر los می تواند با احتمال خوبی نرمال باشد اما همانطور ی که در گام اول هم پیش بینی کرده بودیم متغیر age نرمال نخواهد بود.
بد نیست نگاهی هم به سطح معناداری بخش Kolmogotov-Smirnov داشته باشیم هرچند این آزمون بیشتر برای مجموعه داده هایی با حجم بالا کاربرد دارد.
گام سوم:
اگر در گام دوم به این نتیجه رسیدید که متغیرهای شما که در گام اول چولگی و کشیدگی معمولی داشتند نرمال نبودند، به سراغ نمودارهایی که می توانید از خروجی Explore که در گام دوم معرفی شد بروید. به طور پیش فرض نمودارهای جعبه ای ، یا Q-Q plot یا نمودار شاخ و برگ ظاهر می شود. با این حال در همان کادر محاوره Plots چک کنید که گزینه های مربوط به نمودار شاخ و برگ وسایر نمودارها تیک دار باشند.
از طریق این نمودارها می توان به طور جزیی به نحوه ی توزیع داده ها پی برده و علت نرمال نبودن داده ها را با دلیل ببینید:
نمودار شاخ و برگ برای یک توزیع نرمال شکلی زنگوله وار دارد.
در نمودار Q-Q داده های یک توزیع نرمال معمولا روی خط قرار می گیرد و داده ها در روی خط مارپیچ یا S-وار نخواهند بود.
جعبه ی یک نمودار جعبه ای معمولا برای توزیع نرمال در مرکز نمودار قرار می گیرد. دیدن داده های پرت ( که آنها را با ستاره یا نقطه نشان می دهند) می تواند انحراف یک توزیع را از توزیع نرمال به خوبی تشریح کند.
در مثال بالا نمودار ها را برای متغیر age می بینیم:
مشاهده می کنید که علاوه بر اینکه داده ها S –وار حول خط نرمال پخش شده اند داده هایی داریم که بسیار از خط دور افتاده اند. این داده ها همان داده های پرت می باشند
در نمودار جعبه ای آن هم مشاهده می کنید که جعبه در مرکز قرار ندارد. و علت آن می تواند وجود داده ی پرتی که در بالا ی جعبه فرار دارد نیز باشد.


همینطور نمودار شاخ و برگ را برای متغیر سن ببینید و آن را با نمودار شاخ و برگ متغیر los مقایسه کنید:
Pt. age Stem-and-Leaf Plot
Frequency Stem & Leaf
3.00 66 . 000
6.00 67 . 000000
14.00 68 . 00000000000000
13.00 69 . 0000000000000
6.00 70 . 000000
8.00 71 . 00000000
6.00 72 . 000000
14.00 73 . 00000000000000
14.00 74 . 00000000000000
6.00 75 . 000000
1.00 76 . 0
2.00 77 . 00
2.00 78 . 00
1.00 79 . 0
.00 80 .
3.00 81 . 000
1.00 Extremes (>=91)
Stem width: 1
Each leaf: 1 case(s
نمودار شاخ و برگ متغیر los:
Hospital LOS Stem-and-Leaf Plot
Frequency Stem & Leaf
3.00 12 . 000
4.00 13 . 0000
12.00 14 . 000000000000
7.00 15 . 0000000
8.00 16 . 00000000
21.00 17 . 000000000000000000000
14.00 18 . 00000000000000
11.00 19 . 00000000000
9.00 20 . 000000000
7.00 21 . 0000000
3.00 22 . 000
.00 23 .
.00 24 .
1.00 25 . 0
Stem width: 1
Each leaf: 1 case(s